Aprendizaje de políticas con una sola trayectoria en MDP promedio Aprende a obtener una política óptima desde una sola trayectoria en MDP promedio. Garantías de complejidad de muestra finitas con métodos libres de modelo. 2026-06-16 · 2 min